# coding:utf-8
import pandas as pd
import numpy as np
from pandas import DataFrame,Series
import warnings
warnings.filterwarnings('ignore')

# 读取文件
filename = './src/book_data.csv'
data = pd.read_csv(filename, encoding='gbk')

# 数据汇总统计
data1 = data.describe()

#  列的标准差【所有元素】
data2 = data.std()

#  列的均值
data3 = data.mean()
print(data1,'\n',data2,'\n',data3)

# 数据透视表和相关性分析
pivot = data.pivot_table(index=['作者']   ,
                         values=['作品视角'],aggfunc=[np.sum,len,max])
#  数据列与列之间的相关系数
cor = data.corr()
# 分析这个数据集中第1列和第3列的相关性
X = data['总书评数']
Y = data['营养液数']
cor1 = np.corrcoef(X, Y)

# 导出为excel
pivot.to_excel('./src/book_pivot.xlsx')
print(pivot,'\n',cor,'\n',cor1)

